基于变化的AutoEncoder的语音转换(VAE-VC)具有仅需要对培训的发言和扬声器标签的优势。与VAE-VC中的大部分研究不同,专注于利用辅助损失或离散变量,研究了如何增加模型表达式对VAE-VC的益处和影响。具体而言,我们首先将VAE-VC分析到速率 - 失真的角度,并指出模型表达性对于VAE-VC来说意义重大,因为速率和失真反映了转化的演示的相似性和自然度。基于分析,我们提出了一种使用深层等级vae的新型VC方法,具有高模型表达性,并且由于其非自动增加的解码器而具有快速转换速度。此外,我们的分析揭示了另一个问题,当VAE的潜变量具有冗余信息时,相似性可以降级。通过使用$ \ beta $ -vae目标控制潜在变量中包含的信息来解决问题。在使用VCTK Corpus的实验中,所提出的方法在性别间环境中的自然和相似性上实现了高于3.5的平均意见分数,其高于现有的基于AutoEncoder的VC方法的分数。
translated by 谷歌翻译
The external visual inspections of rolling stock's underfloor equipment are currently being performed via human visual inspection. In this study, we attempt to partly automate visual inspection by investigating anomaly inspection algorithms that use image processing technology. As the railroad maintenance studies tend to have little anomaly data, unsupervised learning methods are usually preferred for anomaly detection; however, training cost and accuracy is still a challenge. Additionally, a researcher created anomalous images from normal images by adding noise, etc., but the anomalous targeted in this study is the rotation of piping cocks that was difficult to create using noise. Therefore, in this study, we propose a new method that uses style conversion via generative adversarial networks on three-dimensional computer graphics and imitates anomaly images to apply anomaly detection based on supervised learning. The geometry-consistent style conversion model was used to convert the image, and because of this the color and texture of the image were successfully made to imitate the real image while maintaining the anomalous shape. Using the generated anomaly images as supervised data, the anomaly detection model can be easily trained without complex adjustments and successfully detects anomalies.
translated by 谷歌翻译
To ensure the safety of railroad operations, it is important to monitor and forecast track geometry irregularities. A higher safety requires forecasting with a higher spatiotemporal frequency. For forecasting with a high spatiotemporal frequency, it is necessary to capture spatial correlations. Additionally, track geometry irregularities are influenced by multiple exogenous factors. In this study, we propose a method to forecast one type of track geometry irregularity, vertical alignment, by incorporating spatial and exogenous factor calculations. The proposed method embeds exogenous factors and captures spatiotemporal correlations using a convolutional long short-term memory (ConvLSTM). In the experiment, we compared the proposed method with other methods in terms of the forecasting performance. Additionally, we conducted an ablation study on exogenous factors to examine their contribution to the forecasting performance. The results reveal that spatial calculations and maintenance record data improve the forecasting of the vertical alignment.
translated by 谷歌翻译
本文从未分割的烹饪视频中解决了食谱生成,该任务要求代理(1)提取完成盘子时提取关键事件,以及(2)为提取的事件生成句子。我们的任务类似于密集的视频字幕(DVC),该字幕旨在彻底检测事件并为其生成句子。但是,与DVC不同,在食谱生成中,食谱故事意识至关重要,模型应以正确的顺序输出适当数量的关键事件。我们分析了DVC模型的输出,并观察到,尽管(1)几个事件可作为食谱故事采用,但(2)此类事件的生成句子并未基于视觉内容。基于此,我们假设我们可以通过从DVC模型的输出事件中选择Oracle事件并为其重新生成句子来获得正确的配方。为了实现这一目标,我们提出了一种基于变压器的新型训练事件选择器和句子生成器的联合方法,用于从DVC模型的输出中选择Oracle事件并分别为事件生成接地句子。此外,我们通过包括成分来生成更准确的配方来扩展模型。实验结果表明,所提出的方法优于最先进的DVC模型。我们还确认,通过以故事感知方式对食谱进行建模,提出的模型以正确的顺序输出适当数量的事件。
translated by 谷歌翻译
已显示迅速学习可以在大多数文本分类任务中实现近调调节性能,但很少有培训示例。对于样品稀缺的NLP任务是有利的。在本文中,我们试图将其应用于实际情况,即恢复信息提取,并增强现有方法,以使其更适用于简历信息提取任务。特别是,我们根据简历的文本特征创建了多组手动模板和语言器。此外,我们比较了蒙版语言模型(MLM)预培训语言模型(PLM)和SEQ2SEQ PLM在此任务上的性能。此外,我们改进了口头设计的设计方法,用于知识渊博的及时调整,以便为其他基于应用程序的NLP任务的迅速模板和语言设计的设计提供了示例。在这种情况下,我们提出了手动知识渊博的语言器(MKV)的概念。构造与应用程序方案相对应的知识渊博的口头表的规则。实验表明,基于我们的规则设计的模板和言语器比现有的手动模板更有效,更强大,并自动生成及时方法。已经确定,当前可用的自动提示方法无法与手动设计的及时模板竞争一些现实的任务方案。最终混淆矩阵的结果表明,我们提出的MKV显着解决了样本不平衡问题。
translated by 谷歌翻译
我们提出了一个名为“ Visual配方流”的新的多模式数据集,使我们能够学习每个烹饪动作的结果。数据集由对象状态变化和配方文本的工作流程组成。状态变化表示为图像对,而工作流则表示为食谱流图(R-FG)。图像对接地在R-FG中,该R-FG提供了交叉模式关系。使用我们的数据集,可以尝试从多模式常识推理和程序文本生成来尝试一系列应用程序。
translated by 谷歌翻译
粒子过滤是针对多种顺序推断任务的标准蒙特卡洛方法。粒子过滤器的关键成分是一组具有重要性权重的粒子,它们可以作为某些随机过程的真实后验分布的代理。在这项工作中,我们提出了连续的潜在粒子过滤器,该方法将粒子过滤扩展到连续时域。我们证明了如何将连续的潜在粒子过滤器用作依赖于学到的变异后验的推理技术的通用插件替换。我们对基于潜在神经随机微分方程的不同模型家族进行的实验表明,在推理任务中,连续时间粒子滤波在推理任务中的卓越性能,例如似然估计和各种随机过程的顺序预测。
translated by 谷歌翻译
信息提取(IE)一直是NLP的重要任务之一。此外,信息提取的最关键应用程序方案之一是简历的信息提取。通过对简历的每个部分进行分类来获得构造的文本。存储这些文本以供以后进行搜索和分析很方便。此外,构造的简历数据也可以在AI简历筛选系统中使用。大大降低人力资源的劳动成本。这项研究旨在将简历的信息提取任务转变为简单的句子分类任务。基于先前研究生产的英语简历数据集。改进了分类规则,以创建简历的更大,更细粒度的分类数据集。该语料库还用于测试一些当前主流培训语言模型(PLMS)性能。Furthermore,为了探索培训样本数量与简历数据集的正确性率之间的关系,我们还与培训进行了比较实验一组不同的火车集尺寸。最终的多个实验结果表明,具有改进的注释规则和数据集的样本大小的简历数据集提高了原始简历数据集的准确性。
translated by 谷歌翻译
本文提出了一种通过视觉解释3D卷积神经网络(CNN)的决策过程的方法,并具有闭塞灵敏度分析的时间扩展。这里的关键思想是在输入3D时间空间数据空间中通过3D掩码遮住特定的数据,然后测量输出评分中的变更程度。产生较大变化程度的遮挡体积数据被认为是分类的更关键元素。但是,虽然通常使用遮挡敏感性分析来分析单个图像分类,但将此想法应用于视频分类并不是那么简单,因为简单的固定核心无法处理动作。为此,我们将3D遮挡掩模的形状调整为目标对象的复杂运动。通过考虑从输入视频数据中提取的光流的时间连续性和空间共存在,我们的灵活面膜适应性进行了。我们进一步建议通过使用分数的一阶部分导数相对于输入图像来降低其计算成本,以近似我们的方法。我们通过与删除/插入度量的常规方法和UCF-101上的指向度量来证明我们方法的有效性。该代码可在以下网址获得:https://github.com/uchiyama33/aosa。
translated by 谷歌翻译
充分感知环境是机器人运动产生的关键因素。尽管引入深层视觉处理模型有助于扩展这种能力,但现有的方法缺乏积极修改感知内容的能力。人类在视觉认知过程中进行内部性能。本文通过提出一种新的机器人运动生成模型来解决问题,灵感来自人类的认知结构。该模型结合了一个由州驱动的主动自上而下的视觉注意模块,该模块获得了可以根据任务状态积极改变目标的注意事项。我们将这种注意力称为基于角色的注意力,因为获得的注意力集中在整个运动中共有连贯作用的目标。该模型经过了机器人工具使用任务的训练,在该任务中,基于角色的专注分别在对象拾取和对象拖动运动过程中将机器人抓手和工具视为相同的最终效果。这类似于一种称为工具体同化的生物学现象,其中一个人将处理工具视为身体的扩展。结果表明,模型的视觉感知的灵活性有所提高,即使为其提供了未经训练的工具或暴露于实验者的分心,也可以持续稳定的注意力和运动。
translated by 谷歌翻译